ChatGPT мисли ли, че и вие сте уелски?
Уелският е най-старият жив език във Англия — клон на античния келтски, който е оживял след най-хубавите старания на британския си комшия да го унищожи. Въпреки близостта си, двата езика са съвсем взаимно неразбираеми. И въпреки всичко през по-голямата част от миналата година чатботът на OpenAI настояваше да ми приказва на уелски.
Ако сте консуматор на ChatGPT и не сте се сблъсквали с този проблем, може да е, тъй като не сте минали от въвеждане на подкани към изричане на глас. След като го извършите, е мъчно да се върнете обратно. AI транскрипцията като цяло е отлична. Просто понякога моята започваше да навива уелски. „ Не приказвам уелски “, бих споделил. „ Dwi ddim yn siarad Cymraeg “, ще написа.
Обяснението на OpenAI за какво това се е случило е, че Whisper, неговият модел за превръщане на тирада в текст, от време на време се обърква. Но кой бърка британския, най-широко потребления език в света, с уелския? Добавянето към мистерията беше фактът, че не чуваше погрешно хомофонични думи, а ги превеждаше. Блог за разработчици предложи интрига („ още един образец за социалистическото държавно управление на Уелс, прокарващо своята идеология “). Но това беше осуетено от консуматори, които оповестиха, че същото се случва на малайски и исландски.
OpenAI знае за този проблем повече от година, съгласно репортажите на FT. Това е доказателство какъв брой мъчно е да се разработят разговорни гласови сътрудници. Ако си спомняте безуспешното кряскане „ Alexa, УВЕЛИЧИ СИЛАТА НА ЗВУКА “, когато умните високоговорители бяха пуснати преди десетилетие, ще знаете това. Всичко, което е по-малко от съвършени условия - фонов звук, акцент, припокриваща се тирада или необикновена поръчка - покачва шанса за неточност.
Добавяне към казуса е фактът, че висококачествените записани набори от данни се намират по-трудно от текстовите и времето за обработка е по-дълго. Това води до различен проблем: нашата остра сензитивност към неверни стъпки в речта. Допълнителни няколко милисекунди безмълвие сред един човек, който приказва и различен, който дава отговор, са всичко, което ни кара да се усещаме неловко.
Като оставим тези терзания настрани, софтуерният бранш е сигурен, че гласът е идната граница в AI – „ де факто интерфейсът “. Няма повече да гледате надолу и да докосвате, докосвате, докосвате телефона си, бъдещето е със свободни ръце. Интелигентни високоговорители, интелигентни очила, интелигентни игли, интелигентни пръстени – всичко може да се трансформира в интерфейс за диалози на натурален език. Това е, на което залага дизайнерът на iPhone Джони Айв със своето мистериозно устройство OpenAI, нещо, което би трябвало да забележим по-късно тази година.
Съоснователят на OpenAI Сам Алтман разказа атмосферата на това устройство като „ седене в най-красивата хижа край езеро и в планината “. какво значи това Никой не знае. Може да се окаже, че е под формата на лампа, камъче, щипка или чифт слушалки, според от това кой слух слушате. Но както и да наподобява, чака се да бъде ръководено от аудио, а не от сензорен екран.
Можете да видите фокуса върху гласа в други покупко-продажби, осъществявани в бранша. Миналото лято Meta купи Play AI, започваща компания, профилирана в разговорни гласови модели. Гугъл неотдавна нае създателя на започващия Hume, прочут с работата си по анализиране на гласови страсти. Apple купи Q.ai, израелски стартъп, който наблюдава мускулите на лицето, когато говорите, което значи, че може да разбере какво казвате, даже в случай че не можете да бъдете чути. Накъдето и да отидем – в офиса, във заводи, коли, лечебни заведения, учебни заведения и домове – сме маневрирани да водим устни диалози със програмен продукт.
Разбира се, това е моментът, в който случайните преводи стават тревожни. Ако седнал съм на дивана си и чатбот превключи на език, който не мога да схвана, това е досадно. Ако се пробвам да споделям с роботизиран хирург или самостоятелна кола, която се носи по пътя със скорост 70 благи в час, това е ужасяващо.
Но софтуерът за превръщане на глас в текст се усъвършенства с трагични темпове. Изследователите мерят точността в % на неточности в думите. В класацията за автоматизирано различаване на тирада с отворен код OpenAI's Whisper има % от 7,44 % (0 % е перфектно). Това е спад от над 8 % преди няколко месеца. На върха е Canary-Qwen-2.5B на Nvidia с резултат от 5,63 %.
OpenAI също по този начин споделя, че казусът с Welsh е трябвало да бъде поправен с последната актуализация на модела. Проблемът беше в погрешно обозначени данни - едва звено в комплицирана верига, чието разплитане лиши известно време.
Говоренето е по-естествен метод за другарство от писането. И колкото повече се употребява технологията, толкоз по-бързо нейните дефекти могат да бъдат разпознати и поправени. Вече съвсем две десетилетия сме прегърбени пред смарт телефоните. Гласовият режим е крачка напред - стига да е на верния език.